扎根的情况识别(GSR)旨在生成图像的结构化语义摘要,以``类人''事件的理解。具体而言,GSR任务不仅检测出明显的活动动词(例如购买),而且还可以预测所有相应的语义角色(例如代理和商品)。受对象检测和图像字幕任务的启发,现有方法通常采用两个阶段框架:1)检测活动动词,然后2)基于检测到的动词来预测语义角色。显然,这个不合逻辑的框架构成了语义理解的巨大障碍。首先,仅没有语义角色的前检测动词不可避免地无法区分许多类似的日常活动(例如,提供和赠与,买卖)。其次,以封闭的自动回归方式预测语义角色几乎无法利用动词和角色之间的语义关系。为此,在本文中,我们提出了一个新颖的两阶段框架,该框架着重于在动词和角色中利用这种双向关系。在第一阶段,我们没有预测动词,而是推迟检测步骤并假设一个伪标记,其中每个相应的语义角色都从图像中学到了每个相应的语义角色的中间表示。在第二阶段,我们利用变压器层发掘动词和语义角色内的潜在语义关系。借助一组支持图像,替代学习方案旨在同时优化结果:使用与图像相对应的名词更新动词,并使用支持图像中的动词更新名词。关于挑战性SWIG基准测试的广泛实验结果表明,我们翻新的框架在各种指标下的表现优于其他最先进的方法。
translated by 谷歌翻译